Une méthode contextuelle d'extension de requête avec des groupements de mots pour le résumé automatique
نویسندگان
چکیده
This paper describes the different steps which lead to the construction of the LIP6 extractive summarizer. The basic idea behind this system is to expand question and title keywords of each topic with their respective cluster terms. Term clusters are found by unsupervised learning using a classification variant of the well-known EM algorithm. Each sentence is then characterized by 4 features, each of which uses bag-of-words similarities between expanded topic title or questions and the current sentence. A final score of the sentences is found by manually tuning the weights of a linear combination of these features ; these weights are chosen in order to maximize the Rouge-2 AvF measure on the Duc 2006 corpus. MOTS-CLÉS : Résumé automatique, Apprentissage non-supervisé, Extension de requêtes
منابع مشابه
Résumé automatique de texte avec un algorithme d'ordonnancement
Résumé: Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où cha...
متن کاملInterrogation à base d'Annotation Sémantique
Résumé. Les approches de la recherche d’information (RI) actuelles ne saisissent pas formellement la signification explicite d'une requête à base de mots-clés mais fournissent une voie confortable pour l'utilisateur qui spécifie ces besoins en informations sur la base des mots-clés. La recherche sémantique promet de fournir des résultats plus précis que la traditionnelle recherche par mots-clés...
متن کاملLa structure thème-rhème pour l'ordonnancement de documents en recherche d'information
RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une ...
متن کاملModèle de recherche contextuelle orientée contenu pour un corpus de documents XML
RÉSUMÉ. Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de nœuds pertinents à une requête orientée contenu "Content Only" composée de simples mots ...
متن کاملNew Word Vector Representation for Semantic Clustering
RÉSUMÉ. L’idée que nous défendons dans cet article est qu’il est possible d’obtenir des concepts sémantiques significatifs par des méthodes de classification automatique. Pour ce faire, nous commençons par proposer des mesures permettant de quantifier les relations sémantiques entre mots. Ensuite, nous utilisons les méthodes de classification non supervisée pour construire les concepts d’une ma...
متن کامل